Synthetic voice and splicing audio clips have been generated to spoof Internet users and artificial intelligence (AI) technologies such as voice authentication. Existing research work treats spoofing countermeasures as a binary classification problem: bonafide vs. spoof. This paper extends the existing Res2Net by involving the recent Conformer block to further exploit the local patterns on acoustic features. Experimental results on ASVspoof 2019 database show that the proposed SE-Res2Net-Conformer architecture is able to improve the spoofing countermeasures performance for the logical access scenario. In addition, this paper also proposes to re-formulate the existing audio splicing detection problem. Instead of identifying the complete splicing segments, it is more useful to detect the boundaries of the spliced segments. Moreover, a deep learning approach can be used to solve the problem, which is different from the previous signal processing techniques.
translated by 谷歌翻译
大型预训练的神经网络无处不在,对于自然语言处理和计算机视觉中许多下游任务的成功至关重要。但是,在Web信息检索领域内,缺乏类似灵活且强大的预训练模型可以正确解析网页存在鲜明的对比。因此,我们认为,诸如内容提取和来自网页的信息挖掘之类的常见机器学习任务的收益较低,但仍未开发。我们的目标是通过引入不可知论的深图神经网络提取器来缩小差距,该图形提取器可以摄入网页结构,对大量未标记的数据进行自我监督,并对网页上的任意任务进行微调。最后,我们表明,我们的预训练模型使用两个非常不同的基准测试的多个数据集实现了最新的结果:网页清除板删除和流派分类,从而在不同的下游任务中提供了对其潜在应用的借贷支持。
translated by 谷歌翻译
本文解决了开发一种用于垂直起飞和降落(VTOL)无人驾驶飞机(UAV)自动船舶登陆算法的问题,仅使用无人机中的单眼相机进行跟踪和本地化。船舶着陆是一项具有挑战性的任务,这是由于较小的着陆空间,六个自由度船甲板运动,定位的视觉参考有限以及诸如风阵等的对抗环境条件。我们首先开发了一种计算机视觉算法,该算法估计了使用无人机上的单眼视觉摄像头的图像流在着陆平台上在降落平台上的地平线参考栏的相对位置。我们的方法是由实际的船舶着陆程序动机,然后是海军直升机飞行员在跟踪视觉提示的地平线参考栏时的动机。然后,我们开发了一种强大的增强学习(RL)算法,即使在存在诸如风阵的对抗环境条件的情况下,也可以控制无人机朝着着陆平台。我们证明了与基准非线性PID控制方法相比,我们的算法的性能优越自由(DOF)甲板运动。
translated by 谷歌翻译
我们介绍了bugs(WOB)的世界,这是一个旨在支持视频游戏中自动化错误检测(ABD)研究的开放平台。我们讨论了ABD中的一些开放问题,以及它们与平台设计的关系,认为如果要进一步进展,则需要基于学习的解决方案。该平台的主要功能是越来越多的常见视频游戏错误集合,可用于培训和评估ABD方法。
translated by 谷歌翻译
Conventional sensor-based localization relies on high-precision maps, which are generally built using specialized mapping techniques involving high labor and computational costs. In the architectural, engineering and construction industry, Building Information Models (BIM) are available and can provide informative descriptions of environments. This paper explores an effective way to localize a mobile 3D LiDAR sensor on BIM-generated maps considering both geometric and semantic properties. First, original BIM elements are converted to semantically augmented point cloud maps using categories and locations. After that, a coarse-to-fine semantic localization is performed to align laser points to the map based on iterative closest point registration. The experimental results show that the semantic localization can track the pose successfully with only one LiDAR sensor, thus demonstrating the feasibility of the proposed mapping-free localization framework. The results also show that using semantic information can help reduce localization errors on BIM-generated maps.
translated by 谷歌翻译
该论文讨论了一种基于智能视觉的控制解决方案,用于自主跟踪和降落垂直起飞和降落(VTOL)在船上具有无人驾驶飞机(UAV)的无人使用,而无需使用GPS信号。中心想法涉及自动化海军直升机船着陆程序,该程序将飞行员利用该船作为远程跟踪的视觉参考;但是,是指大多数称为“地平线棒”的海军船上安装的标准化视觉提示,以进行最终进近和着陆阶段。该想法是使用与机器视觉集成的独特设计的非线性控制器实现的。视觉系统利用基于机器学习的对象检测来进行远程船舶跟踪和经典的计算机视觉,以在最终进近和着陆阶段使用地平线估算飞机相对位置和方向。非线性控制器根据视觉系统估计的信息运行,即使在存在不确定性的情况下,也证明了强大的跟踪性能。开发的自动船舶着陆系统是在配备了板载摄像头的四轮摩托车无人机上实施的,在移动的甲板上成功证明了进近和着陆,该甲板模仿了现实的船甲板运动。进行了广泛的模拟和飞行测试,以证明垂直着陆安全性,跟踪能力和着陆精度。
translated by 谷歌翻译